home *** CD-ROM | disk | FTP | other *** search
/ Linux Cubed Series 8: LINUX Games / Linux Cubed Series 8 - LINUX Games.iso / games / muds / pennmush.000 / pennmush-1.50-p8-linux.tar / pennmush / BIGRAMS < prev    next >
Text File  |  1992-03-25  |  1KB  |  28 lines

  1. MUSH uses a simple bigram encoding scheme to compress the database in
  2. memory. Supplied with the MUSH distribution, in bigram.h.dist, is the
  3. default token table, based on the frequency of the top 128 bigrams in
  4. the TinyMUD database.
  5.  
  6. Unfortunately, the composition of the TinyMUD database is quite different
  7. from the composition of a MUSH database. It is possible to get better
  8. compression by generating a customized table for your MUSH.
  9.  
  10. Make "bigrams", and then run it on your (uncompressed) database,
  11. piping it through "sort -n -r". Then, dump this output to a file
  12. and use "head" to look through it.
  13.  
  14. Look at the output file generated and take the top 128 most sensible
  15. bigrams from that file. The program scans through everything in the
  16. database, not just attributes (which are the things we're interested
  17. in trying to save space on). 
  18.  
  19. Unless your MUSH has some extremely common abbrevations, like "SFA" 
  20. for StarFleet Academy, being used all the time in descriptions, in 
  21. general, two-capital-letter combinations can be thrown out.
  22. Combinations with "!" can also be thrown out; this is the program 
  23. getting fooled by the "!<number of object>" way of storing the 
  24. database.
  25.  
  26. In general, you don't have to bother with the bigram table unless
  27. memory is becoming a major consideration.
  28.